沙利文发布《2025年中国世界模型发展白皮书》
世界模型正走向复杂智能行为生成的关键过渡期,正成为推动物理AI与虚拟世界融合的关键基础设施,助力中国在全球AI竞争中占据领先地位。当前,世界模型在自动驾驶领域正从研发测试走向量产赋能,通过生成海量高保真场景,推动自动驾驶系统持续学习、自主验证并快速迭代优化,驱
世界模型正走向复杂智能行为生成的关键过渡期,正成为推动物理AI与虚拟世界融合的关键基础设施,助力中国在全球AI竞争中占据领先地位。当前,世界模型在自动驾驶领域正从研发测试走向量产赋能,通过生成海量高保真场景,推动自动驾驶系统持续学习、自主验证并快速迭代优化,驱
又是熟悉的深夜,阿里云今日发布并开源了全新的 Qwen3-Omni、Qwen3-TTS,以及对标谷歌 Nano Banana 图像编辑工具的 Qwen-Image-Edit-2509。
近日,华为公司发布了《智能世界2035》报告,深入研判了未来十年包括生成式人工智能、AI智能体、人机协同编程、多模态交互、自动驾驶、新能源等在内的十大技术趋势将如何深刻重塑各行各业。报告指出,AGI(通用人工智能)将成为未来十年最具颠覆性的变革力量,人类正站在
当你让AI“画一个宇航员在月球骑方形轮子的自行车”,它大概率会给你一张逻辑混乱的图像——宇航员飘在半空,方形轮子歪歪扭扭,月球表面像块模糊的奶酪。这不是AI笨,而是多模态模型的“致命内伤”:它能看懂图像,也能生成图像,却像两个各说各话的部门,不仅不协作,还会互
在构建和视觉相关的大模型时,有一个非常显著的痛点。视觉模态包含图像、视频和三维这三种,这些视觉模态具备不同是数据维度和表征方式,在研究中几乎不可避免的需要分开处理,使得视觉模型被拆分为三个相不互通的研究领域,难以实现视觉领域的统一泛化。
苹果 模态 视觉 transformer psnr 2025-09-22 20:51 6
格隆汇9月22日丨爱朋医疗(300753.SZ)在投资者互动平台表示,公司布局的新一代 ADM 系列麻醉深度监护仪产品已上市销售,但收入规模较小。多模态ADHD行为训练系统近期已获取两张医疗器械注册证和生产许可证,暂未产生收入。外延式布局的常州瑞神安近期也获得
过去二十年,物联网用“连接万物”改写了世界的产业格局。如今,人工智能正以惊人的速度渗透各行各业,成为驱动新质生产力、数字经济和实体经济深度融合的核心引擎。AIoT作为AI与IoT的深度融合体,已经成为推动千行百业智能化升级、实现产业跃迁的关键底座。
罗永浩团队将于9月22日、27日接连开启两场数字人直播。此前罗永浩数字人在百度优选直播首秀获得了1300万人次观看、GMV突破5500万元,大量网友评论“真假难辨、效果不输真人”。罗永浩数字人技术由百度自研的多模协同的新一代数字人技术。它基于文心大模型4.5
在智能手机的世界里,芯片就像神经中枢,决定着设备的每一次响应、每一幅画面和每一次交互体验。骁龙8Elite作为高通旗舰移动平台的巅峰之作,不仅是参数表上的一串数字,更是一场席卷整个移动设备领域的性能革命。它用3nm工艺的精密雕琢和自研CPU架构创新,为从游戏手
格隆汇9月22日丨爱朋医疗(300753.SZ)在投资者互动平台表示,公司布局的新一代 ADM 系列麻醉深度监护仪产品已上市销售,但收入规模较小。多模态ADHD行为训练系统近期已获取两张医疗器械注册证和生产许可证,暂未产生收入。外延式布局的常州瑞神安近期也获得
APP,手指划过屏幕的瞬间,用户期待的是 “恰好想看” 的内容 —— 但现实往往是:通勤时推送 10 分钟长视频、热点爆发 2 小时后才刷到相关资讯、刚看完科技测评就连续出现重复内容。这种 “错位推荐” 正在持续消耗用户耐心:QuestMobile 2024
近日,我国科学家成功研发出一种全新的“双模态”激光雷达系统,为自动驾驶汽车、机器人、无人机等设备的三维感知能力带来了进一步提升。这项成果由华中科技大学智能微系统团队联合清华大学、北京信息科技大学共同完成,并发表于国际顶级光学期刊《光:科学与应用》。
中国计算机学会人工智能专委会匠心出品《大模型十讲》,系统梳理和总结计算机视觉的前沿研究,帮助不同层次、不同方向的学者、学生和专业技术人员全面了解相关方向,以便快速进入研究和研发工作。
在教育数字化浪潮中,“双师课堂”正成为推动教育优质均衡发展的重要模式。而随着人工智能技术的飞速发展,AI数字人教师的出现为这一模式注入了全新活力,正在重塑我们的教学环境。北京欧倍尔智慧课程解决方案推出全流程数字课堂打造模式,从课程资源到后台管理,为教师提供数字
松下控股旗下的松下能源公司近日宣布,将致力于生产被视为新一代电池热门候选的“全固态电池”。与锂离子电池相比,全固态电池起火风险低,且能在高温环境下工作。松下能源将运用这些特点,设想用于工业机械等,力争2026年度实现样品出货。
由前苹果工程师FangchangMa(MIT机器人学博士)与EdwardZhang(华盛顿大学计算机图形学博士)创立的NuanceLabs,正通过技术创新让AI拥有“情绪触角”,实现从“能对话”到“会共情”的跨越。
模态 结婚 华人 计算机图形学 nuancelabs 2025-09-21 16:29 5
别急,卫瓴·集思来了。我们的目标很简单——帮你把“视频化”变成真正的日常,不用养团队,不用学剪辑,也能高效产出专业视频。
项目围绕当前文化艺术创作和场景数字赋能场景中面临的保真度不足、交互体验单一、传播效率低等核心挑战,拟通过研发AI+艺术融合数字化关键技术来提升重建的真实感,增强沉浸式体验,并研究数字预演中多系统协同交互控制方法以实现更智能的互动和系统间的无缝配合,同时研究超高
当 OpenAI 的多模态模型一周内两次刷新交互体验,当海淀 AI 产业规模突破 2800 亿占全国四分之一,当创业者带着代码从 Day One 就冲向海外——我们正站在一场技术革命的临界点上。
这项由Kimi团队开展的研究发表于2025年6月3日,详细介绍了他们最新的多模态大语言模型Kimi K1.5的训练方法和技术突破。有兴趣深入了解的读者可以通过arXiv:2501.12599v4访问完整论文。